nano-banana is Breathtaking & im deleting Photoshop
神秘新模型初登場
大家好,歡迎回到 Matt Vidpro AI YouTube 頻道。今天我們要來看一個在 LM Arena 上流傳的神秘新模型,叫做 Nano Banana。各位,這個模型產生和編輯圖像的能力是無人能及的。我真的不是在開玩笑。
推理能力驚人的披薩實驗
第一個披薩測試:2小時400度烘烤
我要先從 Cryptonomics 在 Twitter 上的這個貼文開始。你可以看到我們問這個 Nano Banana 模型(這來自 LM Arena):「一個普通的冷凍披薩放進烤箱烘烤2小時,溫度400度,然後取出。披薩會變成什麼樣子?我們希望它是真實的。」
注意在這個提示中,我們完全沒有提到燒焦的披薩、被毀掉的披薩或是在烤箱裡放太久的披薩。唯一的上下文線索就是我們說了「2小時400度」。對於會做披薩的人來說,這顯然是瘋狂的,你不會把披薩放在那裡這麼久。
AI的推理突破
但對於生成圖像的 AI 來說,大多數都只會給你一個普通的披薩。但這個模型不一樣,它知道。它實際上能推理和思考披薩已經在400度的烤箱裡烤了2小時這個事實。現實情況下,當它出來時,會看起來像一堆燒焦的糊狀物和石頭。而這正是你得到的結果。
第二個披薩測試:低溫慢烤
他更進一步測試。一個冷凍披薩在烤箱裡烤2小時然後取出,但沒有提到400度。理論上,它是在低溫下烤了2小時。取出後,它看起來很美味。但這個生成真正令人驚訝的部分是它顯示了前後對比。
首先顯示披薩的產品圖片,「超慢烤披薩烤製2小時」。記住,我們從未告訴 AI 或給任何線索表明2小時是慢烤披薩。它只是推斷出來並通過推理理解了這一點,這對圖像生成模型來說相當不可思議。
正常披薩的對照組
當然,如果我們要求一個普通的冷凍披薩只在烤箱裡烤20分鐘,我們就得到一個典型的披薩。甚至下面的烤箱都顯示「20分鐘」,在視覺上給你額外的信息。
3D空間理解能力
3D物體遮罩技術
HBT 的另一個瘋狂貼文。Nano Banana 不只是在像素上作畫,它實際上首先遮罩3D物體,編輯特定部分,甚至記住之前觸碰過的內容。就像人一樣,這個模型似乎真的能在2D圖像中看到3D。
複雜的編輯指令
你可以看到這張圖片,我們有一個人偶擺在兩個不同的位置。這是原始圖片,這是編輯後的圖片。提示是要遮罩人偶特定部分的3D體積,用網格使用者界面。她要用右手揮手,保持同樣的姿勢,特別是右手,並用橙色網格標記那些移動的部分。未改變的部分應該用藍色網格標記。這相當複雜。
精確的3D網格呈現
你可以看到這是原始圖片。經過編輯後,完全符合描述。人偶完全覆蓋了3D網格 UI,顯示物體的實際深度。例如,靴子上的粉紅色小方塊實際上是這個3D物體上的凸起。你可以看到腿部向上移動時變得更粗。甚至髮絲細節都有這些細微的網格片段。
網格並不完美,明顯看起來像有人畫上去的,但顯得非常準確。這裡是藍色網格。唯一改變位置的是右手,以橙色網格顯示。你可以看到,那確實是她的右手在上面揮舞。
模型身份猜測
可能來自Google
它深度理解提示的固有能力,甚至對此進行推理,讓我相信這是一個自回歸原生圖像生成模型,類似於我們在 GPT-4 中看到的,或者在 API 中稱為 GPT image 的模型。但我真的不認為這個模型來自 OpenAI。我實際上認為它來自 Google,大多數人也這麼認為。
圖像一致性測試
蜘蛛俠雕像編輯
在下一個例子中,我們有另一個人偶,這顯然是蜘蛛俠1/6比例雕像 Webber 版。看看編輯之間的一致性,絕對令人驚嘆。要求移除一些額外的藍色小物體,清理圖像,但保持其他所有內容相同。
我們甚至可以改變蜘蛛俠的姿勢,以及要求左手邊的燈被勾勒出來。你會看到它在這些編輯過程中也保持圖像中的一切。背景、他站立的圓柱體,真的非常不可思議。
區域選擇功能
你甚至可以要求它在整個圖像中突出顯示和選擇不同區域。你可以看到它做了一點重複,1、1、2、2。但總體上,它有效地分離了這些不同區域。顯示了對它正在編輯或創建的圖像良好的空間理解。
與其他模型的比較
Flux Context 和 Gemini 2.0 Flash 的表現
Flux Context 和 Gemini 2.0 Flash 根本比不上 Nano Banana 能夠產生的效果。它們得到基本的粗略概念,但遠不及準確,也完全搞砸了文字以及人偶的許多細節。
Pokemon卡片創建
你也可以看到 Jimmy Apples 的有趣例子,為 Alpha Mind 製作了一張自定義寶可夢卡片。再次仔細觀察,它做得很棒。甚至字體看起來與真正的寶可夢卡片相當準確。這裡的圖標學真的很棒,再次遵循真正的寶可夢以及卡片本身的佈局。
文字處理的限制
Jimmy Apples 指出的一件事是我們還沒有從這個模型得到完美的文字。你可以用各種 AI 工具修復它,但一次性就得到所有內容會很棒。再次,這個模型仍在測試階段,沒有完全發布。
技術上,沒有人知道誰建造了這個模型。它在文字方面非常接近,但就是達不到完全準確。你可以看到攻擊在這裡被搞砸了。「Flip a coin if coin head attack does 40 more damage」只是一些破碎的句子,但非常接近。
個人測試體驗
汽車牛奶實驗
我也對這個 Nano Banana 模型進行了大量自己的測試。在這個例子中,我上傳了一張紅色掀背車的照片。我說:「如果這輛車裝的是牛奶而不是機油,並在賽道上跑了一小時,會是什麼樣子?」
再次,相當模糊,非常自然的語言,指示和提問。Nano Banana 完全掌握了這個提示。它與之對戰的 Flux one context dev 模型做得還行,但遠不如它好。
現實主義的體現
在 Nano Banana 的結果中,我們可以看到它有點像用機油做了奶昔。人們實際上以前確實在車輛引擎中放過牛奶,信不信由你。當它們因為沒有機油而爆炸時,這基本上就是它們看起來的樣子。飛濺遍佈汽車前部,看起來像是從引擎蓋下洩漏出來。現實。這幾乎是我可以相信的照片。
風格轉換能力
檸檬房間轉換
這是我發現真正有趣的另一個演示。我上傳了這張照片,它相當詭異。這是我用 ChatGPT 製作的我在這個充滿檸檬的詭異房間裡的圖像。我只是指著身後的檸檬。
我要求 AI 將這張圖片從目前詭異的藝術風格逆轉為更加愉快和快樂的風格。也要調整燈光,但基本構圖應該保持完整。再次,有點模糊,但它完全做到了。
驚人的轉換效果
Nano Banana 完全照亮了圖像。它讓我看起來更加愉快和快樂,像兒童電視節目的主持人。我只是在展示我的檸檬收藏。我真的很震驚它能夠正確地做成檸檬,因為在原圖中,你怎麼知道那些是檸檬而不是橘子?
另一方面,Gemini 2.0 Flash,這張圖片幾乎和另一張一樣詭異。它看起來有點更燒焦和酥脆。橘子看起來不真實,我甚至看起來都不真實。
模型的局限性
失去肢體的挑戰
但並非都是陽光和彩虹。對於 Nano Banana 來說,有些事情仍然絕對具有挑戰性。我上傳了這張圖片,我最初是用 OpenAI 的 GPT image 生成的。這是一個非常令人印象深刻的生成,因為它實際上能夠生成一個缺少一隻手臂的男人的圖像。
為什麼這對 AI 模型來說很困難?因為它們是在圖像和文字配對上訓練的。大多數人都有雙臂。很少見到有人失去肢體。所以即使你要求 AI 圖像模型生成沒有手臂的人,它經常會搞砸。
雙重挑戰測試
現在,我提高了難度,因為我要求 Nano Banana 也移除他的另一隻手臂。讓他看起來像來自古代時期。這是我在旁邊想出的一個小補充,看看它能否同時做到這兩點。
不幸的是,Nano Banana 無法完全完成任務。你可以看到它只是砍掉了更多他的手臂。我們希望這隻手臂也被切斷,但它確實讓他看起來更像來自古代。給了他一些不那麼新時代的服裝。
太空任務測試
月球跌倒場景
上傳了一張我的照片。我說:「為這個傢伙製作一張極其準確和詳細的照片,他在月球上絆倒摔倒。他的頭盔撞到了岩石上。」我想看看它能走多遠。
但你可以看到,即使是 Nano Banana 也無法完全掌握這個提示。我確實在月球上穿著太空服絆倒摔倒。你可以在背景中看到地球和美國國旗。那都很棒,但這個人是誰?那絕對不是我。我認為這只是一個太小的區域,無法真正將我的臉複製進去。
YouTube縮圖創作
VR Minecraft縮圖
但這個生成真的很特別。上傳了另一張我的照片,我說:「為這個傢伙製作一個YouTube縮圖,在VR Minecraft中。」超級基本的提示。
Gemini 2.0 Flash 只是重新編輯了我戴上VR頭盔,給了我太多牙齒。Nano Banana,那是一個完整的YouTube縮圖,太瘋狂了。那是一個完整的16:9縮圖。Minecraft標誌基本上是完美的。甚至想出了標題「VR is wild」。
專業級縮圖品質
Minecraft鎬、小VR頭盔、也有點像Minecraft風格的圖標。完全裁剪了我,毫無疑問,包括我的整個頭盔。通常當我製作縮圖時,我在頭盔上的小麥克風件會造成巨大困難。Nano Banana 立即裁剪它,沒有問題。
也保留了椅子,我通常會移除,但你知道,那很好。這仍然可用,我認為,作為VR Minecraft的縮圖。背景你真的也得談論,因為它讓你處於虛擬現實Minecraft的情況,高視野,所有這些怪物圍繞著我,當我在VR中有這些方塊時,真的讓你置身場景中。
空間編輯測試
洞穴人場景編輯
再次嘗試了一些空間內容,上傳了另一張我的照片。我說:編輯這張圖片,讓穿白T恤的男人坐在背景的沙發上,與一個真正的洞穴人生火,他蹲在火的右邊,火在房間中間。椅子消失了。
老實說,Flux one context dev 這個結果真的讓我印象深刻,細節有點模糊,不如後者,但我的臉和頭看起來很棒。我們有洞穴人和營火就在中間。它成功了。
Nano Banana 也做得相當好。我說它總體上有更多細節,看起來更真實,但我的臉,雖然這不是一個糟糕的複製,但不如這個好。我認為它把我的臉改變得有點太多。但這個洞穴人絕對看起來更好,那是你經典的刻板印象洞穴人。
進階縮圖創作
VR駕駛縮圖
接下來,我嘗試了更多縮圖內容。「一個傢伙在VR中超快駕駛汽車的引人注目的YouTube縮圖。標題應該引人注目和創意,真正強調感覺。」所以這個提示相當基本,我沒有期望太棒的東西。
Gemini 2.0 Flash 只是放了一個戴VR頭盔的隨機傢伙在車裡就結束了。基本上沒用。Nano Banana 老實說仍然做得很棒的工作。我沒有保存這個,但這也是完全的16:9。你甚至可以看到高速公里每小時,同時保持我房間的背景。給我的頭戴上頭盔,張開我的嘴,我很震驚。玩得很開心。
與OpenAI GPT Image比較
最終縮圖對決
這是來自OpenAI的GPT image。你會注意到長寬比不是16:9。這是OpenAI在這個模型上鎖定的,我不知道為什麼。實際上這是一個相當棒的縮圖。看起來和我很像。我戴著VR頭盔,握著方向盤駕駛。瘋狂的現實主義。
但nano banana縮圖,我的天,這是另一個層次。它完全把我傳送到這個駕駛艙,這個駕駛艙小屋,給你一種「天哪,我被虛擬現實傳送了」的感覺。有點像你製作這樣的影片時想要傳達的感覺。
頂級縮圖展示
對於我最後一個變體,更詳細的提示,我想要一個專業級YouTube縮圖,喚起VR給你的意象和傳送到新地方的感覺。3D的東西,顯示被傳送的過程。我們需要這個傢伙在VR中超快駕駛汽車,但顯示轉換。標題應該吸引你的注意。
這絕對得到了我所有測試中可能最喜歡的縮圖。Flux One Context Pro 沒有做得那麼好。它把我放在車裡,在螢幕上放了一些文字,但又是沒用的。你不會把那個當作真正的縮圖使用。
這絕對令人震驚。不僅我的常規房間實際上在左手邊,複製得很好,而且它完全把我裁剪在中心。到處放電靜電轉換東西。VR頭盔戴上了,我手握方向盤,兩邊都有汽車,在現實生活中它只是一個3D模型,但當你在裡面時,感覺真實,你實際上被傳送到一個cyberpunk城市或其他地方。
如何使用Nano Banana
通過LM Arena存取
那麼,現在如何實際使用Nano Banana?就像我說的,LM Arena基本上是你唯一真正的選擇。有一堆詐騙網站。確保你在頂部的戰鬥模式。這似乎是你能夠存取它的唯一方式。
點擊提示框底部左角的生成圖像。然後上傳圖像,這會增加你獲得nano模型的機率。輸入你的提示並點擊發送。大約有四分之一的機會你會得到nano banana。
使用示範
「將這酒變成空靈的藍色。」點擊發送,希望我們得到nano。結果出來了。我會在這個上選擇助理A。這次你可以看到我們沒有得到Nano Banana,但GPT image one仍然做得相當好。
如果你想嘗試特定提示,你總是可以再次上傳它,只是希望最好。這全部免費,因為你實際上在排名和評分這些模型,它實際上改變了LM Marina這裡的排行榜。
Qwen ImageEdit競爭對手
新的競爭者
Qwen ImageEdit也在這裡,這相當驚人。它比Nano Banana更完全發布。基本上,我們在Qwen ImageEdit中上傳這個文字,然後我們說:「添加一個女人站在Qwen文字前面,但在image edit文字後面的照片,採用時尚設計,就像你在雜誌上看到的那樣。」
你可以看到它幾乎完美地編輯它。讓人想起Nano Banana。昨天我們在Discord伺服器中進行了一些正面對決的Qwen image edit對Nano Banana,我得說,Nano Banana幾乎每次都獲勝。但對於更直接的編輯,這是一個強大的模型,而且幾乎到處都有。
總結與未來展望
Google的可能性
我相當確定這裡的Nano Banana真的很好,因為它來自Google。我確實認為這是他們為Gemini 3系列模型製作的東西。你知道他們現在在2.5 Pro上,已經出來一陣子了。所以Gemini 3就在不遠處。我認為這是他們要與之一起發布的圖像生成。
它是我使用過的最好的圖像生成,在理解你的提示、理解你上傳和編輯的圖像的能力,以及基本上一次性完成複雜任務的能力方面。我可以把它用作YouTube縮圖,例如,太瘋狂了。
優勢分析
我認為它理解標誌如此之好,能夠製作完美的YouTube縮圖,真的傾向於來自Google。他們有來自YouTube縮圖的所有訓練數據,或者來自一堆受版權保護的作品。也許在某些情況下甚至比OpenAI有更多和更好的數據。
無論如何,就像我說的,這個模型並不完美,有時仍然搞砸,仍然不是真正的官方模型。一旦它完全發布,我們就會知道誰製作了它,它真正的全部內容。但我的錢真的押在Google的新自回歸模型上。
與Photoshop的告別
如果Nano Banana真的是Gemini 3.0原生圖像生成模型,一旦我獲得存取權限,我就要取消我的Photoshop訂閱,因為我不再需要它。這絕對足夠好。
感謝大家今天的觀看。我有更多東西即將推出。我已經獲得了一個秘密新編碼模型的存取權限,我今天要演示和測試。所以如果你在我的Twitter時間線或Discord上看到任何瘋狂的專案,那就是原因。
好吧,享受你們一天的其餘時間,我們下次見。再見。